探索单个变量

查看数据整体情况

## [1] 4898
## [1] 13
##        X        fixed.acidity    volatile.acidity  citric.acid    
##  1      :   1   Min.   : 3.800   Min.   :0.0800   Min.   :0.0000  
##  2      :   1   1st Qu.: 6.300   1st Qu.:0.2100   1st Qu.:0.2700  
##  3      :   1   Median : 6.800   Median :0.2600   Median :0.3200  
##  4      :   1   Mean   : 6.855   Mean   :0.2782   Mean   :0.3342  
##  5      :   1   3rd Qu.: 7.300   3rd Qu.:0.3200   3rd Qu.:0.3900  
##  6      :   1   Max.   :14.200   Max.   :1.1000   Max.   :1.6600  
##  (Other):4892                                                     
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.600   Min.   :0.00900   Min.   :  2.00     
##  1st Qu.: 1.700   1st Qu.:0.03600   1st Qu.: 23.00     
##  Median : 5.200   Median :0.04300   Median : 34.00     
##  Mean   : 6.391   Mean   :0.04577   Mean   : 35.31     
##  3rd Qu.: 9.900   3rd Qu.:0.05000   3rd Qu.: 46.00     
##  Max.   :65.800   Max.   :0.34600   Max.   :289.00     
##                                                        
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  9.0        Min.   :0.9871   Min.   :2.720   Min.   :0.2200  
##  1st Qu.:108.0        1st Qu.:0.9917   1st Qu.:3.090   1st Qu.:0.4100  
##  Median :134.0        Median :0.9937   Median :3.180   Median :0.4700  
##  Mean   :138.4        Mean   :0.9940   Mean   :3.188   Mean   :0.4898  
##  3rd Qu.:167.0        3rd Qu.:0.9961   3rd Qu.:3.280   3rd Qu.:0.5500  
##  Max.   :440.0        Max.   :1.0390   Max.   :3.820   Max.   :1.0800  
##                                                                        
##     alcohol      quality 
##  Min.   : 8.00   3:  20  
##  1st Qu.: 9.50   4: 163  
##  Median :10.40   5:1457  
##  Mean   :10.51   6:2198  
##  3rd Qu.:11.40   7: 880  
##  Max.   :14.20   8: 175  
##                  9:   5

从上面信息可得知: 1、该白葡萄酒数据集有13个变量,4898 条数据; 2、该白葡萄酒数据集质量范围在3~9分之间。

通过直方图来查看quality的分布,具体如下:

## 
##    3    4    5    6    7    8    9 
##   20  163 1457 2198  880  175    5

由图中我们看出质量分数呈现和正态分布类似,其中峰值quality=6。

fixed.acidity 的分布基本属于正态分布,存在一些异常值。 volatile.acidity 的分布呈现右偏斜分布。 citric.acid 呈现正态分布,存在一些异常值。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.600   1.700   5.200   6.391   9.900  65.800

residual.sugar 是正偏斜分布。 将 residual.sugar 取log10,可以得到一个双峰分布,具体看上图。

我们可以看出Free Sulfur Dioxide 去除异常值后,Free Sulfur Dioxide 分布接近正态分布。

从上图可以看出,free.sulfur.dioxide 和 total.sulfur.dioxide的分布都很均匀。

sulphates的分布比较均匀,chlorides去掉chlorides中异常值,如下:

如图显示,chlorides大致呈现正态分布。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.720   3.090   3.180   3.188   3.280   3.820
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9871  0.9917  0.9937  0.9940  0.9961  1.0390
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00    9.50   10.40   10.51   11.40   14.20

从上图和统计数据中,我们可以得出以下信息: pH的分布大致呈现正态分布,中位数为3.180。 density分布大部分在0.98711.0390的范围内。 alcohol呈现偏右斜分布,alcohol分布在8.0014.2之间。

alcohol的统计数据如下:

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00    9.50   10.40   10.51   11.40   14.20

新变量acid

由于变量中包含3中酸,fixed.acidity,volatile.acidity,citric.acid, 现在新建一个变量 acid = fixed.acidity + volatile.acidity + citric.acid,查看acid的分布。

单变量分析

数据集的结构是什么?

本数据集包含4898种白葡萄酒,以及11个关于酒的化学成分的变量。

数据集的主要特征是什么?

主要数据特征是质量,我对找出什么因素影响白葡萄酒的质量更感兴趣。

数据集的主要特征是什么?

pH、residual.sugar、total.sulfur.dioxide以及其他特征对我的研究可能有用。还需要后续具体查看。

你是否根据现有变量创建了新的变量?

目前,根据3种酸,计算了新变量 acid,表示3种酸的总和。

目前,根据3种酸,计算了新变量 acid,表示3种酸的总和。

新变量 acid 没有不寻常的分布,由于 fixed.acidity 的值比 volatile.acidity 和 citric.acid 大很多,将三者相加以后,主要是由 fixed.acidity 的值起作用,所以 acid 的分布整体主要受与 fixed.acidity 的分布影响。

探索2个变量

我们从上图可以看出: residual.sugar 与 density 相关度最高:0.84; free.sulfur.dioxide 和 total.sulfur.dioxide 相关度为:0.62 total.sulfur.dioxide 和 density 的相关度为:0.53

存在较高的负相关度的变量为: alcohol 与 density : -0.78 alcohol 与 total.sulfur.dioxide: -0.45 alcohol 与 residual.sugar: -0.45 fixed.acidity 与 pH:-0.43

由于 quality 是分类变量,所以 quality 与其他变量的关系用箱线图来表示。 在双变量分析的箱线图中加入 jitter,能够更丰富的传递信息

探索alcohol和quality的关系

从图中可以看出, 随着quality的增加,alcohol的度数增加,即两者呈现正相关关系。在箱线图中加入jitter,能传递更加丰富的信息,加入线性回归线,可以减少被极端值影响的情况,更好的反映数据之间的趋势。 ##探索pH与quality的关系

从上图可以看出,quality 与 pH 的关系并不明显,呈现非常微弱的正相关关系。

探索citric.acid 与 quality的关系

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.2700  0.3200  0.3342  0.3900  1.6600

从上图可以看出,quality 和 citric.acid 的回归线几乎在一条水平线上,说明 citric.acid 与 quality 无相关关系 。

探索 residual.sugar 和 density 的关系

从图中可以看出,residual.sugar 和 density 呈正相关关系

探索 total.sulfur.dioxide 和 density 的关系

从图中可以看出,total.sulfur.dioxide 和 density 呈现正相关关系。

探索 alcohol 和 density 的关系

从上图可以看出,alcohol 与 density 之间,呈现明显的负相关关系

探索 alcohol 和 total.sulfur.dioxide 的关系

从图中可以看出,当total.sulfur.dioxide 和alcohol 之间呈现负相关关系。

探索 fixed.acidity 和 pH 的关系

从图中可以看出,fixed.acidity 的值越高,pH的值越低,即两者呈现负相关关系 。 #双变量分析 ##谈论一下你在这部分观察到的变量之间的关系。在数据集中,我们关注的变量是如何变化的? 从观察中可以得出,quality与achohol的相关性是最强的,同时,我们也发现随着quality的增加,alcohol的值先减少后增加,在quality=5时,alcohol达到最低的平均值。 还探讨了 pH 与 quality 的关系,关系与上面 quality 与 alcohol 之间的关系很相似。 也是随着quality 的增加, pH 的值先减少,再增加,在quality=5时,pH 达到最低平均值。

除了主要特征之外,你观察到其他特性之间的关系了吗?

residual.sugar 和 density 的关系:两者呈现正相关关系,随着 residual.sugar 增加,density 的值也增加; total.sulfur.dioxide 和 density 的关系:两者也呈现正相关关系,随着 total.sulfur.dioxide 增加,density 呈现增加趋势; alcohol 和 density 的关系:两者呈现负相关关系,随着 alcohol 增加,density 呈下降趋势; alcohol 和 total.sulfur.dioxide 的关系:两者呈现负相关关系; fixed.acidity 和 pH 的关系 :两者呈现负相关关系,随着 fixed.acidity增加,pH呈现下降趋势。

你发现的最强的关系是什么?

其中,最强的关系是residual.sugar 和 density的关系,从图中可以看出,两者正相关关系很明显,且相关系数为 0.84。

进行多变量研究

探索alcohol、density 和 quality之间的关系

从图中可以看出,当alcohol一定时,density越高,quality的颜色越深,也就是说质量更高,但quality=3 和 quality = 9 这两条线并不遵循这个规律,但由于quality = 3和9 的数据相对于其他等级来说,太少了,远小于30个数据,这里有可能会出现误差。在总结规律时,暂时先不考虑这两个质量的影响。 故,从整体上来说,当alcohol一定时,density越高,quality的质量更高。

探索 alcohol, quality, pH 的关系

从图中整体来看,alcohol = 10.5 是一个分界线,当 alcohol > 10.5 时,ph 值一定时, pH 取值越高时,quality 的质量越高。 当 alcohol < 10.5 时,关系并不明确。

探索 alcohol, quality, residual.sugar 的关系

从上图中可以看出,当alcohol 一定时,residual.sugar 值越大,整体上 quality的值也越大,不过在 quality=3和9 时,并不遵循此规律。由于quality=3和9的数据量太小,远小于其他值,存在误差的可能性很大,我们可以暂时不考率quality=3和9的情况。 再观察图形,可以看出,从整体来说,当alcohol 一定时,residual.sugar 值越大,quality的值也越大。

探索 alcohol, quality, total.sulfur.dioxide 的关系

当 alcohol 保持一致时, total.sulfur.dioxide 与 quality 关系并不明确,故 total.sulfur.dioxide 与 alcohol 并不是相互加强的关系。

多变量分析

需要注意

由于quality为分布变量,如果出现一个连续变量(alcohol,sulphate等等)VS 连续变量 VS 分类变量(quality)的情况,所以我们散点图的x,y值应该为这两个连续变量,然后颜色元素应该代表分类变量quality。否则的话如这次提交中的图形将quality选为x值的话图形中的点是重叠无法看清里面的分布的。

谈论一下你在这部分观察到的特性之间的关系。你探索数据时,有发现相互之间会加强的数据吗?

探索过程中发现,pH、residual.sugar、density 和 alcohol 是相互加强的关系。由于quality = 3 和 9 的数据量太少了,在 quality = 3 和 9 的趋势上,可能存在误差。

有哪些有趣的关系?

暂无。

可选:你是否创建任何数据模型?讨论你的数据模型的优缺点.

暂无。

最后的图形以及说明

图1

图1说明

我们从上图可知,quality分布大致呈现正态分布。其中峰值quality=6,而quality=9时,数量最少,另外还有1/3的quality=5。 ##图2

图2说明

从图中可以看出, quality 与 alcohol 呈现正相关关系,当 Quality 增加时, alcohol 也呈现上升趋势。 ##图3

图3说明

从图中整体来看,alcohol = 10.5 是一个分界线,当 alcohol > 10.5 时,ph 值一定时, pH 取值越高时,quality 的质量越高。 当 alcohol < 10.5 时,关系并不明确。

反思

分析过程的成功

1.在进行双变量探索的过程中,使用GGally库中的ggcorr方法和ggpairs方法,一次性对所有变量做了一个大致性的分析,找到了相关度高的一些变量关系,为后续的分析提供了指导作用; 2.在进行箱线图分析时,使用了jitter丰富信息,并使用线性回归,找到了 quality 与 alcohol 和 pH 之间的正相关关系,验证了最开始的想法; 3.在多变量分析的过程中,使用分组以及线性回归的方式,找到了 alcohol 与 pH 对 quality 相互叠加的正相关关系,从而可以知道,alcohol 和 pH 确实与quality 呈现正相关关系,且 alcohol 和 pH 可以相互加强。

遇到的问题

1.由于 quality = 0,1,2,10 的数据缺少,且 quality = 3,9 的数据量太少,导致评估各种化学物质对质量的影响时,可能存在较大误差。 2.在R的各种方法使用过程中,并不是特别熟悉,这部分需要再多熟悉。

对未来工作的提议

1.采集更多的葡萄酒样本,最好能让让数据集包含各个quality等级的数据; 2.建议手收集更多的参数,例如产地,存储方法等与质量相关的参数; 3.后续可以通过机器学习的方法预测葡萄酒的质量。